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@ Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem 
Spracherkennungssystem 

© Mit der Erfindung wird eine Methode zur Beetlmmung dor 
Ahnlichkelten von Lauten uber verschi8dene Sprachen hin* 
weg engegeben. Weiterhin wird ein neuer Ansatz zur hidden 
Markov Modellierung von muttilingualen Phonemen angege- 
ben. Bei der vorgeschlagenen Methode zur akustlsch phone- 
tischen Modellierung werden sowohl sprachspezffische els 
auch sprachunabhangige Eigenschaften be! darZusamman- 
fassung der WahrechelnlichkeKsdichten fur unterschledllche 
hidden Markov Lautmodelle in verschiedenen Sprachen 
angegeben. 
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Beschreibung 



Die Erfindung bezieht sich auf hidden Markov Modefle fur SpTaghgrfc gimnngjtf jy mp mf. wobd em soiches 
ModeD fur mefarere Spracfaen hgangetogen warden gnf\ mdtm rfw afcitctwnhgn jmH phonrtTrrhpn flhnf^Hfr^p 
5 zwischen den unterschiedlichen Sprachen ausgenutzt werden. 

Ein Spracherkenmmgssystem fur mehrere Sprachen ist aus der WO 95/02879 Al bekannt 
Bei der Spracherkennung besteht ein groBes Problem darin, daB fur jede Sprache in welche die Spracherken- 
ntmgstechnologie eingefuJirt werden sou; neue aknstisch phonetische Modeile trainiert werden mflssen urn eine 
Landeranpassung durchfuhren zu konnen. Metstens werden bei gangigen Rrmtr*i ^«TOim ^ y ui »m »n ji«4H»n 
lo Markov Modeile zur Modelfienmg der sprachspezifischen Laute verwendet Aus diesen statistisch modelfierten 
LautmodeOen werden im AnschluB akustiscbe Wortmodefle zusammengefugt, welche wahrend eines Suchpro- 
zesses beim Spracherkennungsvorgang erkannt werden. Zum Training dieser Lautznodelle werden sehr umfang- 
reiche Sprachdatenbanken bendtigt deren SammliTng und Aufbereftong einen aofierst kosten- und zehmtend- 
ven Prozefi darsteOt Hierdurch entstehen Nachtefle bei der Portierung enter Spracherkeimnngstechnologie von 
15 einer Sprache in eine wehere Sprache, da die Erstelhing einer nenen Sprachdatenhank einerseits eine Verteue- 
mng des Prodnktes bedentet und an der erseits eine zeitBche V er z5g enin g bca <W MarlrtwnfnhF^ig bfdipgt 

In gingigen erwerbbaren Spradierkennungssystemen werden ausschfieBEch sprachspertfische ModeUe ver- 
wendet Zur Portierung dieser Systeme in eine neue Sprache werden umfangreiche Sprachdatenbanken gesam* 
melt und aufbereitet AnschlieBend werden die Lautmodelle fur die neue Sprache mh diesen gesammehen 
20 Sprachdaten von Gnmd auf nen trainiert 

Um den Aufwand und die Zehverzdgerung bei der Portierung von Spracherkennungssystemen in unter- 
sch i ed Kch e Sprachen zu verringern, sollte also untersucht werden, ob PtnTplnff Lautmodelle fur die Verwendung 
in verschiedenen Sprachen geeignet sincL Hierzu gibt es in [2] bereits Ansatze mehrsprachige Lautmodelle zu 
ersteDen und diese bei der Spracherkennung in den jewdligen Sprachen einzusetzen. Doit werden audi die 
25 Begriffe Poly- und Monophoneme eingefuhrt Wobei Poryphoneme Laute bedeuten, deren Lautbildungseigen- 
schaften fiber mehrere Sprachen hinweg ahnlich genug sind, um gleichgesetzt zu werden. Mit Monophonemen 
werden Laute bezeichnet welche sprachspezifische Eigenschaften aufweisen. Um fur solche Entwicklungsarbei- 
ten undU ntersudumgen riditj ed^nal neue Sprachdatenbanken trainieren zu mOssen, s tehen solche schon als 
Standard zur Verfflgung [6J [4J [7J. Ein weherer Stand der Technik zur mehrsprachigen Verwendung von 
30 LautmodeOen ist nicht bekannt 

Die der Erfindung zugrundeliegende Aufgabe besteht demnach darin, ein Verf ahren zur Mehrsprachenver- 
wendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem anzugeben, durcfa welches der 
Portienmgsaufwand von Spracherkennungssystemen in eine andere Sprache nunimiert wird, indem die Parame- 
ter in einem mul tilingu a l en Spracherkennungssystem reduziert werden. 
35 Diese Aufgabe wird gemafi den Merkmalen der Patentansprfiche 1 und 6 geldst 
WeherbDdungen der Erfindung ergeben sich aus den abhangigen Ansprfichen, 

Ein besonderer Vorteil des erfmdungsgemaBen Verfahrens besteht darin, daB ein statistisches AhnHchkehs- 
maB angegeben wird, welches es erlaubt, aus einer gegebenen Anzahl von verschiedenen LautmodeUen fflr 
Shnfiche Laute in unterschiedlichen Spradien dasjenige Lautmodell auszuwahlen, welches in seiner Charakteri- 
40 snkaflezur VerfOgung stehenden Merkmalsvektoren der jewefllgen Laute am besten beschreibt 

Besonders vorteilhaft wird als MaB fflr die Auswahl des besten hidden Markov Modelies fur unterschiedlidie 
Lautmerkmalsvektoren der logarithmisdie WahrscJieinrichkptaahstand zwischen den jewefllgen hidden Mar- 
kov Moddlen und einem jeden Merkmalsvektor ermittelt Hierdurch wird ein MaB zur VerfOgung gestellt, 
welches expenmentelle Befunde bezughch der Ahnlidikett von einzelnen LautmodeHen und deren Erkennungs- 
45 raten widerspiegelt 

Besonders vorteilhaft wird als MaB fflr die Beschreibung eines moglichst reprisentativen hidden Markov 
Lautmodelles nach der Erfindung der arithmetische Mittelwert der logarithmischen WahrscheinHchkeitsabstan- 
de zwischen jedem hidden Markov Model! und den jewefllgen Merkmalsvektoren gebfldet, da hierdurch ein 
symmetnscher Abstandswert erhalten wird. 
so Vorteilhaft wind das erfindungsgemaBe BeschreibungsmaB fur die representative Eigenschaft eines hidden 
Markov ModeUs zur Beschreibung von Lauten in unterschiedlichen Spradien dadurch gebildet, daB die erfin- 
dungsgemaBen Gleichungen 1 bis 3 angewendet werdea da hierdurch ein geringer Rechenaufwand entsteht 

Besonders vorteilhaft wird fflr die eifindungsgemaBe Anwendung eines BeschreibimgsmaBes eine Schranken- 
bedingung vorgegeben. nut der eine Erkennungsrate des reprasentierenden hidden Markov ModeDs emeeste&t 
55 werden kann. ^ 

Bwonders vorteilhaft wird durch das erfindungsgemaBe Verfahren der Spdcheraufwand fur eine Sprachbi- 
buothek reduziert; da em ModeQ fflr mehrere Sprachen verwendet werden kann und ebenfalls der Portierungs- 
aufwand von einer Sprache in die andere minimiert was einen reduzierten Zehaufwand fur die Portierung 
bedingt Ebenso vorteilhaft wird ein geringerer Redienaufwand bei der Viterbi-Suche ermdglicht, da beispiels- 

60 weise bei mehrsprachigen Eingabesystemen weniger Modeile flberprflft werden mflssen. 

Besonders vorteilhaft werden bd der Erfindung besondere hidden Markov Modeile zur Verwendung in 
mehrspradugen Spracherkennungssystemen generiert Durch die erfindungsgemaBe Vorgehensweise kdnnen 
hidden Markov Lautmodelle fflr Laute in mehreren Sprachen zu Polyphonem-Modellen zusammeneefaDt 
werden. Hierzu werden Oberlappungsbereiche der verwendeten Standardwahr^emKrhlreit^irht^Wegun- 

65 gen bei den iinterschiedTichen Moddlen untersucht Zur Beschreibung des Pohyphonem-Modelles kann eine 
behebige Anzahl von tdentisch bd den unterschiedli c h e n Moddlen verwendeten Standardwahrsdieiiuidikehs- 
Jchtevmeilungen hwangezogen werden. Experimentelle Befunde haben gezeigt dafi vorteilhaft auch mehrere 
Standardverteilungen aus unterschiedlichen Sprachmodeaen verwendet werden kannen, hne daB die hierdurch 
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bewirkte Verwischung der emzelnen Sprachcharakteristika zu emer signifitauit niedrigeren E rkenmm gsrate 
beim Einsatz cfieses Modells fuhren wurde. Als besonders vortciihaft hat skh hicr der Abstandsschwellcnwcrt 
fQnf zwischen ihnlichen S tandardwahrschemKchkehsvmriliingsdirfiten bewSfart 

Besonders vorteflhaft werden beim Einsatz des erfindungsgemi8en Verfahrens die hidden Markov Modefle 
m \t Ar+; 7iic »5n^pn flns Anient Mhtellaut mid Ablaut modeffiert da hierdnrch erne hinrei chcnd e Gr- rtairigkrit bei 5 
der Beschreibung der Lau fg erzielt wird und der Rechenaufwand bei der Erkennung in einem Spracherkenner 
gering bleibt 

Fig. 1 zeigt dabei beispielhaft den Aufbau ernes einrigcn Multilingualen Phonemes. In diesem Fall istes das 
Phonem M was dargestelh wird Die Zahl der WahrscfaemBchkehsdrrhten und die Erkennungsrate fQr dieses 
Phonem sind in Tabelle 4 angegeben. to 



Thr . 


fdensit (a,b, c) . 


Engl.[%] 


Germ.[%] 


Span . [%] 


0 


341(0 0 341) 


46.7 


44.7 


59.4 


2 


334(0 14 327) 


45.0 


46.4 


57.5 


3 


303(27 34 280) 


48.0 


45.8 


57.5 


4 


227(106 57 187) 


50.9 


44.1 


58.7 


5 


116(221, 48,72) 


49.3 


43.1 


57.0 


6 


61(285, 22, 34) 


41.2 


38.6 


50.4 



La Fig. 1 ist der Anlaut U der Mittel iaut M und der Ablaut R des Phonem-ModeHes dargestellL FQr die 
unterschiediichen Sprachen EngUsch EN, Deutsch DE und Spanisch SP sind die Schwerpunkte der Wahrschein- 
lichkeitsdichteverteflungen der einzelnen verwendeten StandardwahrscheMchkeitsdichten eingetragen und als 
WD gekennzeichnet Hier ist beispielsweise ein hidden Markov Model! aus drei TeDzustanden dargesteltt Die so 
Erftndung soli jedoch nicht lediglich auf soiche hidden Markov Modelle beschrankt werden, obwohl diese unter 
Beriicksichtigung des Kriteriums, das ein minimaler Rechenaufwand der Erkennung durchgefOhrt werden soil 
ein gewisses Optimum darstellen. Die Erfindung kann ebenso auf hidden Markov Modelle angewendet werden* 
die erne andere Anzahl von Zustanden aufweisen. Durch die Erfmdung soil insbesondere erreicht werden, dafi 
der Portierungsaufwand bei der Portioning von Spracherkennungssystemen in eine andere Sprache reduziert 3S 
wird und daS die verwendeten Rechenressourcen durch Reduktion der zugrundeliegenden Parameter moglichst 
gering gehalten werden. Beispielsweise kdnnen durch derartige Spracherkennungssysteme begrenzte Hardwa- 
reerfordernisse besser erfQDt werden, insbesondere wenn ein- und dasselbe Spracherkennungssystem fUr Mehr- 
sprachenanwendung in einem Gerat zur Verfugung gesteUt werden sofl. 

Zun&chst sollte urn das Ziel der Erfindung zu erre&hen, die Ahnlichkeiten von Lauten in unterschiediichen 40 
Sprachen anszuschopfen und beim Modellieren zu benlcksichtigen, beachtet werden, daS sich die Phoneme in 
verschiedenen Sprachen unterscheiden kdnnea Die Grfinde hierfur bestehen vor alien Dingen in: 

— Unterschiediichen phone tischen Kontexten, wegen der unterschiediichen Phonemsatze in den verschie- 
denen Sprachen; 45 

— unterschiediichen Sprechweisen; 

— verschiedenen prosodischen Merkmalen; 

— unterschiediichen ailophonischen Variationen. 

Ein besonders wichtiger Aspekt, welcher dabei zu benlcksichtigen ist, besteht im Prinzip der genugenden so 
wahrnehmuagstechnischen Unterscheidbarkeit der Phoneme [5J. Dies bedeutet, dafi einzelne Laute in verschie- 
denen Sprachen akustisch unterscheidbar gehalten werden. so dafi es fur den einzelnen Zuhdrer leichter ist sie 
voneinander zu separieren. Da aber jede einzelne Sprache einen unterschiediichen Phonemschatz hat, werden 
die Grenzen zwischen zwei ahniichen Phonemen in jeder einzelnen Sprache sprachspezifisch festgelegt Aus 
diesen Grfinden hat die Auspragung eines bestimmten Lautes eine sprachspezifische Komponente. ss 

Bevorzugt werden die Phoneme mittels kontinuierfichen dichten hidden Markov ModeQen (CD-HMM) 
modeQiert [3} Als dichte Funktionen werden haufig Laplace-Mischimgen benutzt Bevorzugt besteht dabei jedes 
einzelne Phonem aus drei Zustanden von links nach rechts genchteten HMM. Die akustischen Merkmalsvekto- 
ren bestehen dabei beispielsweise aus 24 mel-skafierten cepstral, 12 deha cepstral 12 delta delta cepstral, 
Energie, deka-Energie und deha delta-Energie-Koeffizienten. Beispielsweise wird als Lange des Untersuchungs- 60 
zeitfensters 25 ms gewahlt, wobei die Rahmenabstande 10 ms zwischen den einzelnen Rahmen betragen. Aus 
Grunden der begrenzten Grdfie des Sprachkorpus werden bevorzugt lediglich kontextunabhangige Phoneme 
generiert Als besonders representatives Phoneminventar wurde jenes aus [4] gewahlt 

Die Idee der Erfindung besteht dabei darin, dafi zum einen ein Ahnlichkehsmafi zur Verfugung gesteUt wird, 
urn aus standardmfifiig verfugbaren SprachphonembibUotheken fur unterschiedliche Sprachen jenes hidden 65 
Markov ModeH auswahlen zu konnen, welches den Merkmalsvektoren, die aus den unterschiediichen Lautmo- 
deUen der unterschiediichen Sprachen abgelehet werden, am nachsten kommt Hierdurch ist es mdglich, die 
Ahnlichkeiten zweier Phonem-Modelle zu ermhteln und uber dieses Ahnlichkeitenmafi basierend auf der 
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Differenz der Log-T ikcfiho od- Wcrte zwischen den LautreaEsierungen and LautmodeQen eine Anssage zu 
treff en, ob es sich lohnt, emen Last fOr mehrere Spracfaen gemeinsam zn modellieren, bzw. em betreff endes 
scbon bestehendes hidden Markov ModeU f5r die ModelHerung des Lautes in melireren Sprachen znveiwendcn. 
Hierdurch wird die Zahl der Parameter, welche bei der Spracfaerkennung zu berOckachtigen sind reduziert, 
indemdie ZaU der zu untersuchenden hidden Markov ModeOe reduziert wird. 

Ein zweher L&sungsansatz der Erfmdung besteht darin, ein spezieDes Polyphonem-ModeO zur ModelCening 
eines Lautes in mehreren Spr a c hen za crstellcn. Hierzu werden zunlchst beispielsweise drei Lautsegmente, in 
Form eines Anlautes, Mhtellautes and Ablaates gebiUet, dm Tncta»d» aus mehreren Wahrschdnlicfakeits- 
dicutefanktionea den sogenamrten Mischverteihmgsdicbten mit dm dazagehorigen Dichten bestehen. Diese 
Dichten der Qber verschiedenen Sprachen ahnlichen Laatsegmente werden zu einem multifingualen Codebuch 
zusanxmengefaBt Somh teilen skfa Laatsegmente verschiedener Spracfaen die gieichen Dichten. Wlhrend das 
Codebuch fur mehrere Sprachen gleicbzehig benutzt werden kann, werden beispielsweise die Gewichte, mh 
denen die Dichten gewichtet werden fur jede Sprache getrennt ermittelt 

Zor Bildung eines geeigneten AhnfichkehsmaBes werden bevorzugt hidden Markov Modefle mit dm 2nstan- 
den herangezogen. Das Abstands- oder AhnfichkehsmaB kann dabei benutzt werden am mehrere Phonem-Mo- 
deUe zu einem multilingualen Phonem-Modell zusammenzufassen oder diese aof geeignete Weise za ersetzen. 
Hierdurch kann ein muhflingualer Phonemschatz entwickeh werden. Bevorzugt wild zur Messung des Abstan- 
des bzw. zur Bes thnnnmg der Ahnfichkeh von zwei Phonem-Modellen des selben Lautes aus unterschiedfichen 
Sprachen eine MeBgroBe verwendet, welcfae auf der relathren Entropie basiert [1} Wabrend des minings 
20 werden dabei die Parameter der gemiscfaten I ^placedichteverteilungen der Phonem-Modefle bestzmmt Water- 
bin wird fur jedes Phonem ein Satz von Phonemtokens X als Merkmalsvektor aus einem Test- oder Entwick- 
iungsspracfakorpus extrahlert Diese Phoneme kdnnen dabei durch ihr international genormtes phonetisches 
Etikett marldert sein. GemaB der Erfindung werden zwei Phonem-Modelle A, und ^ and ihre zugehdrigen 
Phonemtoken XiundXjzur Bestimmang des AhnlichkehsmaBes zwischen diesen unterschiediichen Phonemen 
25 wie folgt behandelt 

d(XiXj) - logp(Xift) - logppCiiXj) (1) 

Dieses Absta nd s ma B kann als Log-IJkelihood-Abstand angesehen werden, welcher darsteDt wie gut zwei 
30 verschiedene ModeDe zu dem selben Merkmalsvektor Xi passen. DemgemiB wird der Abstand zwischen den 
beiden Modellen X« and Xj gemaB: 

d^.logppCjl^-logppCjlXO (2) 

35 bestimmt Um einen symmetrischen Abstand zwischen diesen beiden Phonem-Modellen zu erhalten. wird dieser 
bevorzugt gemaB 
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bestimmt. Anhand von expenmentellen Befucden konnte f estgestellt werden, daB sich durchaus einige Phonem- 
Modelle aus anderen Sprachen besser fur die Verwendnng in einem deutschen Spracherkennnngssystem etgnen, 
4s alsem deutsches Phonem-Modell. Beispielsweise gflt dies fur die Phoneme k, p und N. For diese Phoneme eignet 
sich das engusche Phonem-ModeU besser als das deutsche. Wfihrend beispielsweise em groBer Unterschied 
rwischen dem deutschen und dem engUschen ModeU aber den Umlaut aU beobachtet wurde, was bedeutet daB 
fur beide Laute em unterschiedliches Symbol im multflingualen Phonemschatz eingefuhrt werden soUte. Ande- 
rerseits konnte fQr den Umlaut al im deutschen tmd fan englischen eine groBe Ahnlichkeit f estgesteOt werden. das 
s» b^eutet, daB lediglich ein Phonem-Modell fur beide Sprachen gleich gut Verwendung finden kann. Ausgehend 
davon soUtefQr jedes Symbol ernes muhilingualen Phonemschatzes ein separates statistisches ModeQ erzeugt 
werden. In [6J warden Polyphoneme alssolcfae Phoneme bezetchnet, die ihnfich genug sind, um in verschiedenen 
Sprachen als ein emziges Phonem modelliert zu werden. Ein Nachteil dieser Vorgehensweise besteht darin. daB 
fBrdie sprachspezifische Erkemuing der vollstandige akustische Raum des Polyphonems verwendet wird. Die 
ss Erfindung hat es jedoch zum Ziel, die sprachabhangigen und die sprachspezifischen akustischen Eigenschaften 
ernes multfmgualen Modells zu kombmieren. GemaB der Erfindung soDen in einem Poryphonem-Modefl solche 
Bereiche des aknstischen Raumes eingegrenzt werden, in denen sich die verwendeten Wahrscfaeiiifichkritsdich- 
ten der emzelnen Phoneme Qberlappen. Hierzu wird z. B. eine gruppierende Verdichtungstechnik (agglommera- 
nve density dustermg technique) eingesetzt, um gleiche oder ahnlicbe Auspragungen eines Phonemtiuredurie- 
go ren, Besonders wtchtig ist es dabei zu beachten, daB ledigGch die Dichten der korrespondlereaden Zustande der 
emzelnen hidden Markov ModeOe in den Phonemen zusammengefaBt werden dOrfen. 

In Fig. 1 ist dabei zu erkennen, daB die jeweiligen Dichten lor die einzemen Zustande L»M und R in den 
emgegrenzten Regionen enthalten sind. Wihrend identische Dichten Qber die einzemen Sprachen EN DE, and 
SP^erteilt sind, v^eren die Mischungsgewichte sprachabhangig. Bei dieser Bewertung soOte jedoch auch 
beructemhtigt werden, dafi spezmsche Aaspragungen eines Phonems in verschiedenen Sprachen in unterschied- 
ucner rlaungkeit aullrelen. 

Die Zusammenfassung der unterschiediichen Wahrscheinlichkeitsdichten kann dabei mh einem unterschiedli- 
chen Abstandsschwellenwert for die WahRdiemfichkehsdichten bei der Dichtehaufung (density dustermg) 
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durchgefuhrt werden. Beispielsweise wurde mit einem AbstandssriiweDenwert von fOnf die Zahl der verweode- 
ten Dichten am einen Faktor 3 gegenfiber dem Ausgangszustand reduziert, hne damit cine en t sch cid ende 
Verschlechterung bei der Spracfaerkennungsrate einher ging. In cfiesem FaO wurden 221, 48 nnd 72 iron den 
ursprQnglichen 341 Ausgangsdichten ffir jeweils die PoJyphonem-Region, die Zweisprachen-Region und die 
Einsprachen-Region zusammengefa£t In Fig. 1 ist eine solche Polyphonemregion als Schnhtmenge der Krase 5 
fur die giwy-glngn Sprachen dargesteflt Beim Mhtellatit M des dargesteUten hidden Markov ModeHs ist beispiels- 
weise eine Wahredieiniichkeitsdichte in einer solchen Region als WDP bezetcbnet Die Erkenmmgsraten for em 
kompiettes muhOinguales Spracnerkennungssystem and dabei in Spalte 4 und 5 der TabeUe 2 als ML1 und ML2 
angegeben. 



Language 


iTokens 


LDP[%] 


ML1[%] 


ML2[%] 


English 


21191 


39.0 


37.3 


37.0 


German 


9430 


40.0 


34.7 


37.7 


Spanish 


9525 


53.9 


46.0 


51.6 


Total 


40146 


42.8 


38.8 


40.8 



Wahrend bei der ersten Untersuchung ML1 die konventioneUe Poryphonem-Deflmtion aus [6] verwendet 
wurde, was bedeutet, daB der komplette akustische Bereich des Poryphonem-Modells bestehend aus der aufleren 
Kontur der Sprachbereiche in Fig. 1* fur die Erkennung verwendet wurde, benutzt die erfmdungsgemi&Be 
Methode IedigCcb einen Teilbereich daraus. Indem die teihveise Oberiappung der einzelnen Sprachbereicbe fur 25 
die einzelne Modellierung des Polyphonem-Modells herangezogen wird, ist beispielsweise eine Verbesserung 
von 2% erzielbar, wie dies in Tabelle 2 in der Spalte fur ML2 dargesteflt ist 
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1. Verfahren zur Mehrsprachen Verwendung eines hidden Markov Lautmodelles in einem Spracherken- 
nungssystem, 

a) bei dem ausgehend von mindestens einem ersten Merkmalsvektor fQr einen ersten Laut (L*MJR) in 
einer ersten Sprache (SPfHDE) und von mindestens einem zweiten Merkmalsvektor fur einen ver- 
gleidibar gesprochenen zweiten Laut in mindestens einer zweiten Sprache (DESP,EN) und deren 50 
zugehQrigen ersten und zwehen hidden Markov Lautmodellen, ermittelt wird welches der beiden 
hidden Markov Lautmodelle (LMR) bade Merkmalsvektoren besser beschreibt, 

b) und bei dem dieses hidden Markov LautmodeU (LMR) fQr die Modellierung des Lautes in minde- 
stens beiden Sprachen (SPfN J>E) verwendet wird. 

2. Verfahren nach Anspruch 1, bei dem als MaB fur die Beschreibung eines Merkmalsvektors durch ein 55 
hidden Markov LautmodeU (L>HR) der fogarithmische Wahrscheinlichkeitsabstattd als log likelihood dist- 
ance zwischen jedem hidden Markov LautmodeU und mindestens einem Merkmalsvektor gebSdet wird, 
wobei eine kurzerer Abstand eine bessere Beschreibung bedeutet 

3. Verfahren nach Anspruch 2, bei dem als MaB fur die Beschreibung der Merkmalsvektoren durch die 
hidden Markov Lautmodelle der arithmetische Mittetwert der togarithmischen WnlircriiPmnotiV^t^b^ 5 "- 60 
de bzw. der log likelihood distances zwischen jedem hidden Markov LautmodeU (UMJl) und jedem 
jeweiiigen Merkmalsvektor gebQdet wird, wobei eine kurzerer Abstand eine bessere Beschreibung bedeu- 
tet 

4. Verfahren nach Anspruch 3* bei dem das erste hidden Markov LautmodeU (IJvtR) von einem Phonem X« 
und das zweite hidden Markov LautmodeU von einem Phonem Xj verwendet wird itnri bei dem als erste und 65 
zweite Merkmalsvektoren Xi und Xj verwendet werden, wobei der fogarithmische WnhrerhOT»Knhtr»i*gaR, 
stand zum ersten Merkmalsvektor gemafi 
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dpOi) - logp(Xi|X<) - Iogp(Xi]Xj) (1) 
- logppCjJXj) - logpCXjpi) (2) 

I w Mi i i ii il l wild, ttrohei mr Eraelimg ernes gymrngtrwrhm Ahg tnmfemnR pg rftnr prTtfrnirtforflf Mfrtf *«Tnt TB 



5. Verfahren nacAAnspnich 4, bd dem di^ Modeflienmgdes 
Lautes in mindestens beiden Sprachen nur verwendet wild, falls d(Xj*Xj) eine festgelegte Schrankeabedin- 
gungerfuDt 

6. Verfahren zur Mehrspracheuverwendung ernes h'dden Markov LautmodeUes in einem Spracherkea* 
nungssystem, 

a) bei dem ausgehend von mmdmens einem ersten hidden Markov LatttmodeD (LJMJR) fQr einen 
ersten Laot in einer ersten Sprache (SP^ENJDE) and von mtnH^t^fnf einem zweiten hidden Markov 
Lautmodefl (UMJt) fQr einen vergieichbar gesprochenen zweiten Laut in mindestens einer zwetten 
Sprache (d£sP,ENX em Poly Phonem Modefl derart gebOdet wird, daB die fQr die ModelCerung des 
ersten und zweiten hidden Markov LantmodeUes (I*MJ&) verwendeten Standanrwahrscheinltchkeits- 
verteflungen (WD) bis zu ei nem festgelegten AbstandsscfaweUenwert, der angibt bis zu welchem 
maximalen Abstand zwischen zwei StandgrriwnhTgr^ ginitritiftM tv ii ^rt^fiffngfn (WD) diese zusammen- 
gefflgt werden sollen zn jeweOs einer nenen Standardwahrsdiemfichkeitsverteilimg (WDP) znsammen- 
gefttgt werden and ledigHch die zusammengefugten stanHaiYtwahr^li^tTinnTiir*.^^^^^^ fa s p or y 
Phonem ModeD diarakteristerea 

b) und bei dem dieses Poly Phonem ModeD fQr die ModeDierung des Lautes in mindestens beiden 
Sprachen (DE3P.EN) (UMJt) verwendet wird 

7. Verfahren nach Anspruch 6, bei dem als AbstandsschweDenwert 5 festgelegt wird. 

8L Verfahren nach einem der vorangehenden AnsprCche bei dem hidden Markov LautmodeDe mh drei 
Zustanden verwendet werden, welche aus den Lautsegmenten Anlaut, MrtteQaut und Ablaut gebOdet 
werden. 
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